We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
我们提出了Tacobot,这是为首届Alexa Prive Taskbot Challenge构建的面向任务的对话系统,该系统可帮助用户完成多步骤烹饪和家庭装修任务。Tacobot的设计采用以用户为中心的原则,并渴望提供协作且易于访问的对话体验。为此,它具有准确的语言理解,灵活的对话管理和引人入胜的响应生成。此外,Tacobot还以强大的搜索引擎和自动化的端到端测试套件为支持。在引导Tacobot的开发中,我们探索了一系列数据增强策略,以训练先进的神经语言处理模型,并通过收集的真实对话不断改善对话经验。在半决赛结束时,Tacobot的平均评分为3.55/5.0。
translated by 谷歌翻译
随着深度学习和智能车辆的兴起,智能助手已成为促进驾驶和提供额外功能的重要车内组件。车内智能助手应该能够处理一般以及与汽车相关的命令并执行相应的操作,从而简化驾驶并提高安全性。但是,在这个研究领域,大多数数据集都采用主要语言,例如英语和中文。对于低资源语言,存在一个巨大的数据稀缺问题,阻碍了对更广泛社区的研究和应用的发展。因此,至关重要的是,拥有更多的基准来提高认识并激发低资源语言的研究。为了减轻此问题,我们收集了一个新的数据集,即广东话音频 - 视听语音识别(CI-AVSR),以使用视频和音频数据在广东话中使用拼写语言识别。与此同时,我们提出了广东话音频的语音识别在车内命令,这是社区在车内场景下应对低资源语音识别的新挑战。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
从纯图像和具有对比性损失的纯图像和文本预测的自我监督的视觉语言是有效的,但是由于双流式体系结构仅在全球层面上与图像和文本表示形式对齐,因此忽略了细粒度​​的对齐。早些时候,受监督的,非对比度的方法具有更细粒度的对齐方式,但需要致密的注释,这些注释不可伸缩。我们提出了一个单个流体系结构,该体系结构使用两个新颖的任务:对称交叉模式重建(XMM)和一个伪标记的关键字预测,将图像和语言对齐:全局,细粒度的补丁和概念/语义(PSL)。在XMM中,我们从一种模态掩盖了输入令牌,并使用跨模式信息重建掩盖的令牌,从而改善了两种模式之间的细粒度对齐。在PSL中,我们使用注意力在标题中选择关键字,使用动量编码器推荐标题中缺少但在图像中表示的其他重要关键字,然后训练视觉编码器以预测这些关键字的存在,并帮助它。学习对于将文本令牌接地到图像区域至关重要的语义概念。我们证明了对图像文本检索,接地,视觉问题的回答/推理的竞争性能和提高的数据效率,以针对对更多数据进行培训的较大模型和模型。 Zaidkhan.me/simla上可用的代码和型号。
translated by 谷歌翻译
为了使AI安全地在医院,学校和工作场所等现实世界中安全部署,它必须能够坚定地理解物理世界。这种推理的基础是物理常识:了解可用对象的物理特性和提供的能力,如何被操纵以及它们如何与其他对象进行交互。物理常识性推理从根本上是一项多感官任务,因为物理特性是通过多种模式表现出来的,其中两个是视觉和声学。我们的论文通过贡献PACS来朝着现实世界中的物理常识推理:第一个用于物理常识属性注释的视听基准。 PACS包含13,400对答案对,涉及1,377个独特的物理常识性问题和1,526个视频。我们的数据集提供了新的机会来通过将音频作为此多模式问题的核心组成部分来推进物理推理的研究领域。使用PACS,我们在我们的新挑战性任务上评估了多种最先进的模型。尽管某些模型显示出令人鼓舞的结果(精度为70%),但它们都没有人类的绩效(精度为95%)。我们通过证明多模式推理的重要性并为未来的研究提供了可能的途径来结束本文。
translated by 谷歌翻译
随着深度学习和智能车辆的兴起,智能助手已成为促进驾驶和提供额外功能的基本内部组件。汽车智能助理应该能够处理一般的和与汽车有关的命令,并执行相应的操作,减轻驾驶和提高安全性。但是,对于低资源语言存在数据稀缺问题,妨碍了研究和应用的发展。在本文中,我们介绍了一个新的DataSet,粤式视听语音识别(CI-AVSR),用于粤语中的车载命令识别,具有视频和音频数据。它由令人宣传的30个粤语发言者记录的200个车载命令的4,984个样本(8.3小时)组成。此外,我们使用常见的内部内部背景噪声增强我们的数据集来模拟真实环境,产生比收集的数据集大10倍。我们提供我们数据集的清洁和增强版本的详细统计信息。此外,我们实施了两个多模式基线以证明CI-AVSR的有效性。实验结果表明,利用视觉信号提高了模型的整体性能。虽然我们的最佳模型可以在清洁测试集上实现相当大的质量,但嘈杂数据的语音识别质量仍然是较差的,并且仍然是真正的车载语音识别系统的极其具有挑战性的任务。数据集和代码将在https://github.com/hltchkust/ci-avsr发布。
translated by 谷歌翻译
低资源语言的自动语音识别(ASR)改善了语言少数群体的访问,以便人工智能(AI)提供的技术优势。在本文中,我们通过创建一个新的粤语数据集来解决香港广东语言的数据稀缺问题。我们的数据集多域粤语语料库(MDCC)由73.6小时的清洁阅读语音与成绩单配对,从香港的粤语有声读物收集。它结合了哲学,政治,教育,文化,生活方式和家庭领域,涵盖了广泛的主题。我们还查看所有现有的粤语数据集,并在两个最大的数据集(MDCC和公共语音ZH-HK)上执行实验。我们根据其语音类型,数据源,总大小和可用性分析现有数据集。使用Fairseq S2T变压器,最先进的ASR模型进行实验结果,显示了我们数据集的有效性。此外,我们通过在MDCC和常见的声音ZH-HK上应用多数据集学习来创建一个强大而强大的粤语ASR模型。
translated by 谷歌翻译
代码切换是在对话期间交换语言时的语音现象。尽管对会话语言中的代码切换的自发性,但大多数现有工程通过读取语音而不是自发的语音来收集代码切换数据。Ascend(一个自发的中国英语数据集)介绍了香港收集的自发多转对话对话中英语代码切换语料库的高质量资源。我们报告了提升的设计和收集语音数据的程序,包括在这项工作中的注释。上升包括23个双语,这些双语流利,汉英都流利,而且由9.23小时的清洁语音组成。
translated by 谷歌翻译